10. 数据集问题
我们使用 Pandas 来分析此数据!在 Jupyter notebook 中运行这些代码单元。你可以根据这些信息提出哪些有效的问题?(Jupyter notebook 下有关于数据集中的列的更多信息。)
Workspace
This section contains either a workspace (it can be a Jupyter Notebook workspace or an online code editor work space, etc.) and it cannot be automatically downloaded to be generated here. Please access the classroom with your account and manually download the workspace to your local machine. Note that for some courses, Udacity upload the workspace files onto https://github.com/udacity , so you may be able to download them there.
Workspace Information:
- Default file path:
- Workspace type: jupyter
- Opened files (when workspace is loaded): n/a
来自威斯康星大学 UCI 机器学习实验室的乳癌(诊断)数据集
属性信息:
- 身份识别号
- 诊断(M =恶性,B =良性)
- 30 个特征
对每个细胞核计算了以下十个特征。我们对于每一个特征各自创建了一个列,用于得出平均值、标准误差和最大值。 (来源)
特征 | Attributes | 描述 |
---|---|---|
半径 | radius | 从中心到边界点的距离的平均值 |
纹理 | texture | 灰度值的标准偏差 |
周长 | perimeter | |
面积 | area | |
平滑度 | smoothness | 半径长度的局部变 |
紧凑度 | compactness | 周长 2 / 面积 - 1.0 |
凹度 | concavity | 轮廓凹部的严重性 |
凹点 | concave points | 轮廓的凹部数 |
对称 | symmetry | |
分形维数 | fractal dimension | "近似海岸线" - 1 |
QUESTION:
你会提什么问题?
ANSWER:
你会如何回答这些问题?你会使用此数据集的哪些部分来解决每个问题?